FILTER MODE ACTIVE

#усиленное обучение

Найдено записей: 10

#усиленное обучение14.10.2025

Думай прежде, чем предсказывать: RLP от NVIDIA внедряет усиленное обучение в стадию предтренировки

'NVIDIA RLP вознаграждает «думание» перед предсказанием, давая плотный позиционный сигнал информационного прироста и улучшая результаты в задачах рассуждения при меньшем количестве данных.'

#усиленное обучение09.10.2025

AgentFlow: обучение планировщика с Flow-GRPO для модульных агентов с использованием инструментов

'AgentFlow предлагает модульную архитектуру и Flow-GRPO для обучения только Планировщика, демонстрируя значительные улучшения на десяти бенчмарках и доступный MIT-репозиторий.'

#усиленное обучение13.08.2025

Reinforcement Learning открывает потенциал открытых LLM для долгих задач в разработке ПО

Исследование Nebius AI и Humanoid применяет модифицированный DAPO для обучения открытой модели Qwen2.5 на многотуровых задачах разработки ПО, добившись 39% Pass@1 на SWE-bench Verified без учителя.

#усиленное обучение12.08.2025

ProRLv2: NVIDIA удлиняет RL до 3000 шагов и усиливает способность LLM к рассуждению

ProRLv2 увеличивает горизонт RL до 3000 шагов и демонстрирует значительные улучшения рассуждения в компактных языковых моделях, подтверждённые приростами по математике, кодированию и логике.

#усиленное обучение14.06.2025

Internal Coherence Maximization: революция в обучении больших языковых моделей без разметки

Internal Coherence Maximization (ICM) представляет собой новый метод обучения больших языковых моделей без использования разметки, достигающий результатов, сопоставимых с обучением на данных с человеческой разметкой.

#усиленное обучение28.05.2025

Удивительный рост математического мышления в Qwen2.5-Math при обучении на неверных и случайных наградах

Модели Qwen2.5-Math значительно улучшают математическое мышление даже при обучении с неправильными или случайными наградами, что выявляет уникальные особенности усиленного обучения.

#усиленное обучение27.05.2025

Phi-4-Reasoning доказывает: в ИИ мышлении больше — не всегда значит лучше

Microsoft Phi-4-reasoning показывает, что качественные и тщательно подобранные данные позволяют меньшим моделям ИИ выполнять сложные задачи рассуждения так же эффективно, как и гораздо большим моделям, опровергая миф о необходимости больших моделей.

#усиленное обучение10.05.2025

ZeroSearch от Alibaba: обучение LLM поиску с усиленным обучением и симуляцией документов без реального поиска

'ZeroSearch от Alibaba обучает языковые модели поиску с помощью усиленного обучения и симулированных документов без использования дорогих API реального поиска, достигая результатов, сравнимых с Google Search.'